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借阅 场景 下 图 书 专业 性 质量 测度 方法 和 图 书 个 性 化 
推荐 服务 方法 ” 
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摘要 : [ 目的 /意义 ] 以 现 有 图 书馆 借阅 记录 为 基础 ,结合 图 书 阅读 相关 性 进行 深入 挖掘 ,探讨 识别 借阅 场 
景 下 图 书 专业 性 质量 和 实现 相应 个 性 化 图 书 推荐 服务 的 有 效 方法 。[ 方 法/ 过程 ] 利 用 图 书 的 阅读 相关 性 提出 
图 书 相关 性 链接 关系 ,结合 图 书 质量 的 迭代 识别 算法 来 识别 专业 图 书 资源 。 同 时 利用 图 书 类 别 相关 性 链接 关 
系 ,提出 读者 用 户 个 性 化 模式 的 表达 方法 ,并 从 长 期 兴趣 推荐 和 短期 兴趣 的 即时 推荐 两 个 方面 给 出 个 性 化 图 书 
葵 策 略 设计 原理 和 实现 方法 。[ 结果 /结论 ] 在 图 书 质量 识别 方面 ,该 方法 更 易于 识别 出 专业 性 较 强 的 优质 图 
2 内 进行 专业 图 书 识 别 。 在 个 性 化 图 书 推荐 方面 ,发 现 不 论 长 
4《 趣 推荐 方法 还 是 短期 兴趣 推荐 方法 ,第 二 类 用 户 的 平均 推荐 命中 度 要 高 于 第 一 类 用 户 , 在 第 一 类 用 户 中 ， 
JW 以 上 ) 和 较 低 相似 度 区 间 (15% -50% ) 的 短期 兴趣 推荐 方法 的 平均 推荐 命中 度 要 高 于 
医 戎 兴趣 推荐 方法 。 本 研究 通过 读者 借阅 序列 分 析 方法 识别 专业 图 书 并 实现 相应 的 个 性 化 推荐 图 书 方法 ,有 
制 村 改善 现 有 图 书馆 借阅 服务 水 平和 提高 读者 的 满意 度 。 
6 关键 词 : 个 性 化 推荐 ”图书 借阅 ”图 书馆 服务 ”图书 质量 
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借阅 ,甚至 会 形成 一 种 较为 稳定 的 借阅 轨迹 ,因此 结合 
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个 性 化 推荐 服务 目前 最 为 主要 的 应 用 在 于 电子 商 je | 。 ee 

务 酉 丰 , 因 为 它 的 成 功效 应 ,也 逐渐 在 很 多 其 他 领域 下 
断 鲁 应 用 。 但 是 不 同 于 电子 商务 领域 ,图 书馆 个 性 化 “一 于 全 和 实现 方法 者 需 可 进行 专门 研究 。 

推荐 服务 所 能 利用 的 读者 行为 信息 具有 自己 的 特点 ， AGO ES 

从 人 生生 Ny 人 - AAA 江 证 i- 吉 
比如 能 反映 读者 用 户 兴趣 程度 的 数据 规模 和 种 类 比较 。 有 风 个 关键 环 字 需要 次 入 的 研究 ;0D 给 当前 读者 用 记 
有 限 ,图 书馆 借阅 活动 需要 人 员 的 到 场 ,因此 数据 产生 推荐 的 图 书 应 该 避免 马 太 效应 ,一 般 图 书 推荐 都 会 采 


到 2014 年 共计 4 年 的 读者 借阅 统计 数据 分 析 发 现 ,年 阅 场 景 下 ,读者 的 需求 具有 多 样 化 特征 ,同时 常常 存在 
平均 借阅 量 约 在 3 万 次 左右 , 人均 每 次 借阅 肌 数 约 为 。 着 对 专业 优质 图 书 资源 的 现实 需求 ,因此 设计 有 效 的 
11 本 。 在 这 相对 有 限 的 数据 中 ,还 缺乏 类 似 于 电子 商 ”优质 专业 性 图 书 识别 方法 是 完善 图 书馆 个 性 化 推荐 服 
务 网 站 用 户 对 所 购 商 品 的 评分 信息 ,而 这 个 信息 对 于 ” 务 整 体 流程 的 关键 内 容 ; 忆 对 当前 读者 用 户 兴趣 特征 
最 为 经 典 的 协同 过 滤 个 性 化 推荐 方法 非常 重要 。 但 是 。 的 有 效 表达 ,这 方面 可 以 通过 分 析 读 者 已 有 借阅 历史 
从 另 一 方面 看 ,由 于 读者 阅读 内 容 和 知识 学 习 的 自身 ” 来 得 到 ,实验 证 明 进 一 步 结合 借阅 历史 及 其 读者 关系 
规律 ,同一 读者 会 对 同一 本 图 书 或 者 同一 类 图 书 反复 。 ”可 以 提供 更 为 有 效 的 表达 途径 ”。 这 两 部 分 分 别 构 成 
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了 本 文 的 两 个 主要 研究 内 容 。 


2 文献 回顾 


图 书馆 个 性 化 推荐 服务 可 以 极 大 地 改善 现 有 图 书 
馆 借阅 服务 的 读者 用 户 体验 ,提高 图 书馆 现 有 图 书 的 
综合 利用 率 ”。 相 关 实 现 方法 有 很 多 , 随 着 对 Web2.0 
和 媒体 受众 影响 力 的 相关 研究 不 断 深入 ,借助 媒体 受 
众 更 多 地 参与 信息 产品 的 创造 ,传播 和 分 享 ,并 根据 媒 
体 受众 的 行为 来 间接 发 现 信息 资源 的 价值 和 识别 优质 
信息 资源 也 成 为 一 个 极 具 潜力 的 研究 方法 。 基 于 现 有 
的 图 书 借阅 记录 ,可 以 进行 有 效 的 图 书 质量 分 析 方 法 
研究 ,也 可 以 提供 有 效 的 推荐 服务 策略 。 近 年 来 相关 
研究 逐渐 增多 。 

放 对 于 图 书 质量 的 测度 研究 而 言 , 优 质 专业 性 图 书 
有 区 种 识别 标准 , 既 可 以 通过 专家 评价 ,也 可 以 通过 读 
着 计价 ,甚至 还 可 以 通过 其 他 一 些 间 接 方法 来 进行 。 
全 图 书馆 借阅 服务 而 言 ,优质 专业 性 图 书 的 判定 必 
及 网 内 容 和 读者 两 方面 来 综合 考虑 。 高 质量 专业 性 图 
书 册 容 本 身 的 强 专业 性 特点 往往 使 得 该 类 图 书 在 特定 
代 阅 读者 群体 中 并 不 会 受到 广泛 关注 ,也 难以 获得 束 
体 读者 群体 的 认可 ,反之 ,广泛 受到 读者 关注 的 图 书 往 
入 顺 因 为 读者 群体 读书 意愿 多 样 化 的 影响 而 非 因 为 图 
的 六 容 本 身 的 高 质量 专业 性 ,图 书 的 质量 和 专业 性 难 
以 村 接 通过 借阅 量 得 以 反映 。 因 此 ,借助 间接 方法 综 
会 系 虑 上 述 两 个 方面 的 影响 ,可 以 提供 更 为 全 面 的 优 
质 盗 业 性 图 书 识别 方法 。 

:三 如 学 者 利用 用 户 评价 和 评分 实现 的 协同 过 滤 方 
法 6 王 出 对 专业 性 图 书 质量 的 测度 方法 ,并 据 此 实现 个 
性 化 图 书 推荐 服务 "。 还 有 学 者 指出 借阅 次 数 和 平均 
借阅 次 数 等 传统 指标 存在 很 多 弊端 ,如 即使 单 本 图 书 
借阅 次 数 再 可 观 也 不 能 说 明 需 要 大 量 购买 同一 本 图 
书 ,同时 图 书 还 具有 时 效 性 ,专家 推荐 和 读者 提交 等 人 
工 方法 又 存在 主观 性 强 和 不 易于 推广 使 用 的 问题 ,但 
针对 这 些 问题 所 提出 的 具体 图 书 质量 评价 方法 上 只 使 
用 了 图 书 N 指数 方法 ,该 方法 只 根据 图 书 类 别 来 进行 
分 析 , 没 有 实现 对 具体 每 本 图 书 的 质量 评估 ""。 另 有 
学 者 提出 利用 图 书 平均 每 次 被 外 借 的 时 间 、 被 外 借 次 
数 以 及 是 否 是 新 书 等 指标 设计 评估 方法 ,以 衡量 图 书 
的 受 欢 迎 程度 ,间接 表达 图 书 的 质量 *。 
利用 图 书 借阅 记录 的 更 多 相关 研究 最 终 目的 还 是 
服务 于 有 效 的 推荐 方法 设计 。 如 有 学 者 利用 大 数据 次 
源 和 关联 规则 分 析 方法 来 从 读者 借阅 记录 中 发 现 读者 
兴趣 模式 ,通过 改进 的 频繁 模式 增长 算法 ,并 据 此 实现 
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线 上 和 线 下 的 个 性 化 推荐 服务 ”。 还 有 学 者 借鉴 电子 
商务 推荐 系统 冷 启动 处 理 办 法 ,利用 改进 的 K-medoids 
算法 对 已 有 读者 .已 有 图 书 进行 基于 借 还 时 间 间 隔 的 
聚 类 ,实现 了 面向 新 读者 和 新 图 书 的 数字 图 书馆 个 性 
化 推荐 服务 。 

值得 注意 的 是 ,这 些 方 法 极 大 依赖 于 对 读者 借阅 
图 书记 录 的 有 效 处 理 和 相关 读者 借阅 行为 的 准确 理 
解 。 目 前 具有 的 个 性 化 图 书 推荐 相关 研究 方法 有 很 
多 ,如 关联 规则 方法 "”” 、 主 题 模 型 方法 '" 等 。 单 纯 使 
借阅 者 的 历史 借阅 数据 的 传统 图 书 推荐 算法 通常 会 
造成 推荐 的 精准 度 偏 低 ,因此 结合 基于 图 书 之 间 的 相 
似 度 和 借阅 者 之 间 相似 度 的 综合 方法 "| ,和 结合 诸如 
图 书 分 类 的 多 特征 方法 ”都 在 图 书 推荐 研究 中 取 
得 了 较 好 的 成 效 。 

对 于 读者 借阅 行为 本 身 而 言 ,有 学 者 将 读者 的 借 
阅 行 为 分 为 4 种 不 同 的 类 型 , 即 续 借 、 超 期 借阅 (长 期 
超 借 与 短期 超 借 ) 正常 借阅 .盲目 借阅 ,分 别 计算 其 相 
对 借阅 时 间 ,并 认为 盲目 借阅 和 长 期 超 借 都 不 能 有 效 
反映 读者 兴趣 。 还 有 学 者 将 读者 的 借阅 行为 分 为 
借阅 . 续 借 、 预 约 3 种 不 同 的 类 型 ,并 认为 借阅 产生 的 
时 间 与 读者 的 兴趣 度 存 在 联系 ,因此 通过 引入 时 间 训 
减 策略 来 完善 读者 借阅 行为 的 分 析 方 法 "| 。 

近年 来 ,有 越 来 越 多 的 学 者 着 重 从 借阅 信息 形成 
的 借阅 记录 网 络 结构 进行 分 析 , 从 而 给 相关 图 书 推荐 
服务 提供 了 一 个 新 的 研究 起 点 。 如 有 学 者 从 网 络 结构 
角度 进行 过 较为 全 面 的 分 析 , 指 出 借阅 网 络 具 有 相对 
较 高 的 平均 集聚 系数 , 较 小 的 平均 最 短路 径 长 度 , 具 有 
明显 的 复杂 网 络 结 构 特 征 '"""。 还 有 学 者 利用 借阅 
网 络 从 中 得 到 读者 的 共同 借阅 关系 ,通过 向 网 络 添加 
日 户 个 人 属性 和 图 书 分 类 ,进一步 研究 不 同类 别 的 用 
户 和 不 同类 别 的 图 书 之 间 的 借阅 联系 强度 ,从 而 提出 
很 多 有 针对 性 的 个 性 化 图 书馆 借阅 服务 建议 措施 。 

在 这 些 研 究 方法 中 ,利用 借阅 二 分 网 络 结构 的 分 
析 方 法 是 一 种 较为 常见 的 方法 ”。 我 们 在 前 期 的 实 
验 中 ,利用 读者 借阅 行为 特征 来 形成 判断 图 书 可 推荐 
质量 的 依据 ,并 结合 借阅 二 分 网 络 结构 设 计 了 一 种 测 
度 图 书 可 推荐 质量 的 迭代 算法 ,提出 了 包括 特定 主题 
的 图 书 推荐 服务 、 现 有 所 借 图 书 的 修正 型 推荐 服务 和 
新 书 推荐 服务 3 种 个 性 化 图 书 推荐 服务 形式 。 类 
似 的 研究 还 有 很 多 ,如 有 学 者 通过 能 量 传递 六 步 算法 
反复 在 借阅 二 分 网 络 结构 中 扩散 权 值 ,从 而 获得 由 不 
同 权 重 图 书 组 成 的 推荐 列表 ,实现 个 性 化 图 书 借阅 推 
送 服务 。 更 有 学 者 进一步 结合 从 Web 网 络 上 抓 取 


ope 


2 


a 


李 树 青 ， 庄 光 光 ， 秦 嘉 杭 , 等 
(1) S36 


hi IV 时 月 于 | 
ry 


的 图 书 购买 记录 ,结合 高 校 图 书馆 借阅 记录 ,利用 用 户 
对 图 书 的 评分 作为 借阅 二 分 网 络 图 的 权 值 ,综合 用 户 
之 间 对 不 同 图 书评 分 的 偏好 预测 ,实现 对 相同 图 书评 
分 的 偏好 预测 和 借阅 偏好 预测 ,进而 完成 个 性 化 图 书 
推荐 服务 。 
一 步 从 推荐 策略 创新 的 角度 来 看 ,利用 时 间 及 
其 演化 信息 来 增强 用 户 个 性 化 兴趣 模式 的 识别 能 力 和 
用 户 兴 趣 特征 信息 的 表达 能 力 , 构 成 了 个 性 化 推荐 服 
务 研究 领 城 _ 个 富有 法 旋 的 研究 方向 然而 ,结合 
时 间 因 素 的 个 性 化 图 书 推荐 研究 仍 不 多 见 , 有 学 者 提 
出 只 利用 最 近 一 学 期 借阅 记录 计算 用 户 短 期 需求 偏 
好 ,及 利用 用 户 的 整个 借阅 记录 计算 用 户 长 期 需求 偏 
好 的 方法 。 笔 者 前 期 的 研究 也 逐渐 发 现 结合 时 间 
储 舟 分 析 的 重要 性 ,并 取得 了 一 些 初步 研究 成 果 , 如 利 
用 而 权 兴 《 趣 表 达 方 法 提出 了 加 权 关 键 词 共 现时 间 元 ， 
通过 对 关键 词 时 序 路 径 的 发 现 和 对 关键 词 时 序 网 络 结 


情 谭 表达 ， 对 个 性 


化 学 术 人 研究 时 序 路 径 的 发 现 方法 及 


其 却 视 化 界 面 设 计 进行 了 研究 。 


本 文 将 继续 对 此 


据 。 因 此 ,更 为 常见 的 方法 是 从 被 借 图 书本 身 人 手 , 通 
过 分 析 被 借 图 书 之 间 的 联系 ,来 测度 图 书 之 间 的 关联 
性 和 区 分 图 书 的 质量 。 
3.2 图 书 的 阅读 相关 性 
在 读者 借阅 图 书 的 历史 记录 中 ,一 般 能 形成 如 表 
1 所 示 格 式 的 借阅 信息 : 
表 1 包括 时 间 序 列 信息 的 读者 借阅 图 书 的 历史 记录 


读者 ,借阅 时 长 ”借阅 


ID 书籍 DD 借阅 时 间 归还 时 间 (天 数 ) ”序列 号 
023 118808 2011 -03 -30 2011 -09 -05 159 | 
023 153604 2011 -04 -02 0 二 05= 和 1 48 2 
023 49490 2011 -04 -06 1== 贡 132 3 
023 160691 2011 -05 -20 2 了 二 的 地 108 4 
023 147269 2011=@G =20 11=120= 克 140 4 
023 153604 2011 =09 -28 2011 =11=30 63 5 


得 到 读者 借阅 序列 的 方法 有 很 多 种 ,关键 是 如 何 
提取 所 需 的 时 间 信 息 , 不 同时 间 信 息 提取 方式 会 得 到 
不 同 的 序列 生成 方法 。 借 阅 时 间 和 归还 时 间 是 最 为 基 


础 的 时 间 信 息 ,通常 


常 读者 会 在 一 次 借阅 操作 中 完成 对 


进行 研究 探索 ， 并 且 力 图 实现 对 长 期 兴趣 推荐 方法 和 
二 胃 兴 趣 推荐 方法 的 比较 和 特点 分 析 。 

CJ 从 国内 高 校 图 书馆 的 应 用 实际 来 看 ,个 性 化 图 书 
推荐 服务 的 普及 依然 进展 有 限 ,相关 网 络 应 用 和 服务 
故 让 分 欠缺 , 除 南 京 大 学 等 部 分 高 校外 ,很 少 有 大 学 的 
ep a ne Ole 
供 据 大 服务 也 非 个 性 化 推荐 服务 。 也 充分 说 明 
了 由 关 研 究 的 必要 性 。 te 
络 结构 分 析 入 手 , 完 成 对 优质 专业 性 图 书 的 识别 和 读 
者 是 户 相似 度 的 测度 ,从 而 探索 一 种 新 的 个 性 化 专业 
图 书 推荐 服务 方法 。 


3 ”优质 专业 图 书 识 别 方法 
3.1 基本 思路 说 明 

对 于 图 书馆 借阅 服务 而 言 ,读者 借阅 记录 能 够 反 
映 读 者 自己 对 于 图 书 的 阅读 意愿 和 关注 度 。 专 业 读者 


通常 更 能 理解 所 借 专 业 图 书 的 质量 ,图 书 借阅 记录 本 
身 就 能 体现 借阅 者 对 相关 图 书 的 一 种 认可 。 通 常 越 是 
优秀 的 专业 读者 越 能 借阅 到 更 为 优质 的 专业 图 书 。 由 
于 专业 性 的 差异 ,图 书馆 测度 优质 图 书 一 定 不 能 忽略 
专业 读者 的 认可 程度 。 在 读者 借阅 记录 中 ,连续 的 借 
阅 记录 往往 能 够 表明 读者 对 于 所 借阅 的 一 系列 图 书 的 
关注 程度 ,也 能 反映 图 书 之 间 的 关联 程度 。 

然而 ,测定 专业 读者 的 质量 和 辨析 优秀 程度 并 不 
容易 ,单纯 的 图 书 借阅 记录 也 很 难 提供 直接 的 分 析 依 


多 本 图 书 的 集中 借阅 ,同样 读者 也 会 在 一 次 归还 操作 
中 完成 对 多 本 图 书 的 集中 归还 ,从 而 形成 一 种 借 还 顺 
序 交 义 的 借阅 序列 。 

基于 目前 的 分 析 , 我 们 提出 如 下 假设 : 

假设 :对 于 全 部 读者 而 言 , 所 借 图 书 A 如 果 能 经 党 
在 借阅 过 图 书 B 后 ,并 且 尚 未 归还 图 书 B 前 被 借阅 ,这 
说 明 图 书 A 和 图 书 B 具有 一 定 的 阅读 相关 性 。 
这 种 阅读 相关 性 具有 多 种 语义 解释 的 可 能 , 既 可 
能 说 明 图 书 之 间 存 在 明显 的 内 容 相 关 性 ,也 可 能 说 明 
具有 外 延 的 阅读 扩展 关系 ,当然 也 可 能 存在 着 其 他 未 
知 原因 ,然而 由 于 出 现 频次 的 数量 较 高 ,在 很 大 程度 上 
可 以 提供 一 个 测度 图 书 关联 度 的 有 效 途 径 , 即 使 对 于 
背后 原因 不 能 确定 ,也 可 以 据 此 提供 一 个 值得 深入 挖 
掘 的 数据 资源 体 。 为 了 进一步 分 析 , 需 要 给 出 量化 测 
度 这 种 阅读 相关 性 的 方法 。 

借阅 时 长 是 较为 直观 的 数据 内 容 , 然 而 我 们 在 实 
验 中 也 发 现 , 单 纯利 用 天 数 等 借阅 时 长 单位 进行 测度 
往往 带 来 很 多 不 利 的 影响 。 主 要 原因 有 很 多 ,比如 受 
假期 影响 ,如 表 1 所 示 , 就 存在 明显 的 器 假 影 响 特征 ， 
再 如 个 人 阅读 习惯 的 影响 ,不 少 读者 平均 借阅 时 长 较 
长 ,并 不 表示 他 们 对 于 这 些 图 书 都 感 兴趣 ,有 时 甚至 恰 
恰 相 反 , 反 映 了 读者 借阅 活跃 程度 较 低 。 因 此 在 我 们 
的 测度 方法 设计 中 ,对 借阅 时 长 没有 考虑 。 

借阅 序列 号 是 指 一 个 用 户 在 所 有 的 借阅 记录 中 每 


55 


图 吉 情 报 三 作 


第 62 卷 第 11 期 2018 年 6 月 


mA 和 上 甘 日 王 
CNINA IV 局 1F 上 二 J 了 1 


| 


一 次 借阅 操作 的 唯一 标识 号 ,也 就 是 说 ,在 用 户 第 1 次 
借阅 操作 时 ,所 有 借阅 记录 的 借阅 序列 号 都 被 分 配 为 
1 ,以 后 每 次 借阅 都 递增 ,因为 读者 可 能 一 次 借阅 多 本 
图 书 ,所 以 部 分 借阅 记录 中 存在 同一 借阅 序列 号 对 应 
多 本 借阅 图 书 的 情况 。 通 过 该 指标 可 以 表达 不 同 图 书 
的 借阅 次 序 。 
3.3 图 书 相关 性 链接 关系 的 构建 方法 

按照 图 书 阅读 相关 性 的 定义 ,我 们 从 读者 借阅 序 
列 中 抽取 出 所 需 的 图 书 相关 性 链接 。 如 表 1 都 为 同一 
读者 的 借阅 记录 ,按照 借阅 序列 号 的 递增 关系 和 借阅 
时 间 的 包含 关系 ,可 以 得 到 如 图 1 所 示 的 图 书 相 关 性 
链接 关系 : 


160691 


147269 


图 1 利用 图 书 阅读 相关 性 得 到 的 图 书 
相关 性 链接 关系 


和 由 图 1 可 以 看 出 ,该 读者 在 归还 118808 图 书 前 ， 
后 鲍 又 借阅 了 4 本 图 书 ,分 别 是 153604、49490、 
160891.、147269 ,因此 相关 节点 之 间 建 立 了 有 向 连接 。 
而 襄 3604 在 被 归还 前 只 存在 一 本 后 续 借阅 图 书 
4 和 50 ,因此 只 有 一 条 有 向 连接 。 

之 如 果 对 所 有 读者 的 全 部 借阅 记录 进行 同样 的 处 
理 3 得 到 的 这 种 图 书 相关 性 链接 图 应 该 是 一 个 典型 的 
网 饥 结 构 , 从 实验 分 析 来 看 , 它 也 具有 复杂 网 络 的 典型 
特点 。 值 得 说 明 的 是 ,图 书 相 关 性 链接 图 有 很 多 生成 
方法 ,传统 方法 往往 以 共同 借阅 关系 来 构造 ,本 文 所 提 
方法 可 以 避免 传统 方法 中 借阅 量 较 高 图 书 往往 具有 较 
高 链 入 节点 的 特点 ,相反 ,只 有 具有 较 多 图 书 阅读 相关 
性 的 图 书 才能 形成 较 高 的 链 入 节点 或 者 链 出 节点 ,这 
显然 给 我 们 提供 了 一 个 新 颖 的 图 书 质量 测度 依据 和 用 
户 相似 度 测度 依据 。 

从 读者 用 户 行为 的 角度 来 分 析 , 我 们 认为 读者 在 
连续 借阅 行为 中 , 随 着 不 断 地 了 解 所 借 图 书 的 内 容 , 更 
易于 在 后 续 的 借阅 行为 中 借阅 到 与 图 书 内 容 相关 的 更 
为 专业 的 图 书 资源 。 因 此 ,该 方法 所 测度 出 来 的 优质 
图 书 往往 在 内 容 上 更 为 专业 ,从 而 为 个 性 化 推荐 服务 
提供 了 良好 的 推荐 客体 资源 。 

3.4 图 书 专业 性 质量 的 迭代 识别 算法 
在 复杂 网 络 结构 中 使 用 迭代 计算 方法 可 以 得 到 权 
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值 收敛 后 的 节点 信息 ,如 PageRank 方法 等 ”。 该 方法 
主要 在 由 众多 节点 组 成 的 网 络 结构 中 ,通过 给 每 个 节 
点 赋予 初始 权 值 ,然后 利用 基于 链 出 关系 的 权 值 扩展 
方法 ,通过 多 次 迭代 计算 最 终 得 到 稳定 的 节点 权 值 ,从 
而 实现 对 网 络 节点 质量 的 有 效 测度 。 

然而 这 些 传统 方法 在 分 配 节 点 权 值 和 权 值 扩散 策 
略 选择 上 ,并 没有 考虑 到 特定 应 用 领域 中 的 特点 。 前 
文 指 出 ,图 书 阅读 相关 性 是 建立 在 具有 一 定 出 现 频次 
的 这 个 重要 前 提 上 ,不 管 是 对 于 单一 读者 而 言 ,还 是 对 
于 所 有 读者 而 言 ,经 常 出 现 的 图 书 相关 性 链接 关系 更 
能 说 明 相 关 链 出 和 链 入 图 书 节 点 的 阅读 相关 性 。 按 照 
这 个 设计 原则 ,需要 对 传统 网 络 节点 迭代 算法 进行 必 
要 的 修正 。 

在 标准 PageRank 方法 的 基础 上 ,本 文 提 出 了 如 式 
(1) 所 示 的 算法 思路 : 

WeightRPR ( Book, ) = C 
> WeightRPR( Book,) X count; 

Docye Fl Book) 和 式 (1) 

WeightRPR 表示 基于 修正 PageRank 方法 的 图 书 
权 值 ,F( Booki ) 集合 表示 图 书 Booki 在 图 书 相 关 性 链 
接 关系 图 中 所 有 链 入 图 书 的 集合 , Niosow) 表示 该 链 入 
图 书 集合 的 图 书 数量 。 其 中 有 3 处 需要 说 明 : 

(1) Count ,表示 对 应 图 书 Book, 和 Book 之 间 链 接 
关系 的 数量 ,通过 该 系数 放大 每 个 链 入 图 书 权 值 的 影 
响 程度 , 据 此 反映 经 常 出 现 的 图 书 相关 性 链接 关系 更 
能 说 明 相 关 链 出 和 链 入 图 书 节点 的 阅读 相关 性 。 

(2) 在 实际 计算 中 ,Book; 和 Booki 并 非 一 定 是 不 
同 的 图 书 。 相 反 , 这 种 连续 借阅 同一 图 书 的 行为 也 更 
能 反映 该 图 书 的 质量 ,保留 此 类 链接 关系 有 助 于 发 气 
高 质量 的 图 书 。 

(3) 式 (1) 提 供 了 一 个 基础 的 计算 方法 ,在 实际 应 
用 中 ,可 以 根据 应 用 环境 和 需求 做 出 更 多 调整 ,如 将 图 
BB 换 成 图 书 类 别 , 据 此 来 挖 据 不 同 的 图 书 类 别 在 指定 
读者 群体 中 的 被 关注 程度 ,再 如 在 特定 读者 群 中 使 用 
该 方法 ,可 以 分 层 了 解 不 同 读者 群 的 关注 点 和 最 受 关 
注 的 高 质量 专业 性 图 书 。 


4 ”基于 读者 借阅 序列 分 析 的 个 性 化 专业 


+(l1-c) 


In 


| ~ 


性 图 书 推荐 方法 
4.1 基本 思路 

读者 借阅 序列 也 可 以 给 个 性 化 图 书 推荐 服务 提供 
分 析 条 件 , 具 体 可 以 形成 多 种 表达 用 户 个 性 化 模式 的 
方法 和 相关 用 户 相似 度 判定 方法 ,如 直接 利用 借阅 图 


区- 
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书 为 处 理 单元 等 。 然 而 这 些 方法 往往 都 存在 一 定 的 稀 
琉 性 问题 和 表达 精度 问题 。 

要 想 回答 借阅 过 同样 图 书 的 用 户 是 否 为 兴趣 相似 
的 用 户 ,我们 可 以 先 回答 另外 一 个 相关 问题 :是 否 兴趣 
相似 的 用 户 会 借阅 同样 的 图 书 ” 以 下 列举 几 种 常见 的 
情况 加 以 分 析 : 

(1) 在 图 书馆 借阅 系统 中 ,很 多 图 书 具有 不 同 的 
版 本 ,而 且 往 往 同一 版 本 的 图 书 具有 多 个 不 同 的 人 D 
号 ,即使 是 同一 本 图 书 ,由 于 借阅 册 数 限制 ,也 决定 了 
不 可 能 让 所 有 想 借阅 的 读者 都 能 借阅 到 ,因此 读者 往 
往 只 能 选择 相似 图 书 或 者 类 似 的 其 他 版 本 。 

(2) 借阅 行为 的 动机 比较 复杂 ,所 借 图 书 对 于 读 
者 兴趣 的 反映 程度 也 并 非 直接 对 应 ,很 多 情况 下 ,读者 
存在 着 试探 性 的 、 偶 发 性 的 借阅 行为 ,即使 是 与 专业 相 
关 的 图 书 借阅 ,也 存在 自己 理解 的 差异 ,不同 的 读者 对 
无 同一 本 图 书 也 会 有 着 不 同 的 评价 标准 ,所 借 图 书 反 
虹 济 者 自身 兴趣 的 能 力也 各 有 不 同 。 

全 从 上 述 分 析 可 以 看 出 ,直接 以 借阅 过 同样 图 书 作 


其 中 的 频次 越 大 ,有 效 性 越 明显 ,该 信息 也 给 后 续 
的 用 户 相 似 度 计算 提供 了 量化 的 数据 基础 。 
4.2 ”相似 度 计算 和 推荐 方法 设计 

我 们 以 所 有 图 书 类 别 相关 性 链接 为 向 量 单元 ,以 
频次 信息 作为 向 量 单元 值 ,就 可 以 得 到 每 个 读者 用 户 
的 兴趣 特征 向 量 。 如 对 于 每 个 读者 用 户 i, 都 可 以 得 到 
如 式 (2) 所 示 的 读者 用 户 兴趣 模式 : 
ReaderVector; = | ( 图书 类 别 相关 性 链接 1 ,频次 1)， 
(图 书 类 别 相 关 性 链接 2 ,频次 2) ， 


(图 书 类 别 相关 性 链接 m, 频 次 m) | 
式 (2) 


其 中 m 为 图 书 类 别 相 关 性 链接 总 数量 。 
具体 的 读者 用 户 相似 度 计 算 方 法 可 以 采用 皮尔 逊 
系数 或 者 余弦 夹 角 系 数 等 ,最 终 可 以 得 到 每 位 用 户 与 
其 他 相关 用 户 的 相似 度 。 由 于 读者 数量 和 图 书 类 别 相 
关 性 链接 数量 众多 ,在 实际 计算 中 ,可 以 通过 设 定 读者 
用 户 具 有 相同 图 书 类 别 相关 性 链接 的 数量 阔 值 来 限定 
比较 范围 。 

本 文 首 移 对 每 个 读者 用 户 兴趣 模式 的 权 值 进行 规 
范 化 处 理 ,为 避免 受 单个 用 户 频 次 绝对 数量 的 影响 , 采 


@(1) 使 用 图 书 类 别 作为 处 理 单位 ,该 方法 可 以 较 
好 晤 在 读者 兴趣 准确 还 原 和 避免 表达 过 于 细致 带 来 的 
漏 报 这 两 个 方面 间 进 行 折 中 处 理 。 具 体 方法 可 以 利用 
刍 杀 图 书 都 标注 的 《中 国 图 书 分 类 法 》 (简称 《中 图 
法 好 中 的 分 类 号 。 由 于 该 分 类 号 存在 多 级 目录 层次 ， 
因 苞 我 们 在 实际 实验 中 采用 了 只 保留 分 类 号 前 面 英文 
字 僵 前 级 和 后 2 位 数字 的 处 理 策略 ,如 对 于 “F752. 68/ 
27”, 保 留 结果 为 “F75”, 对 于 “TP391.13/24”, 保 留 结 
果 为 “TP39" 等 。 

(2) 以 前 文 所 述 的 图 书 相关 性 链接 关系 为 基础 ， 
将 图 书 链接 关系 映射 为 对 应 的 图 书 类 别 映射 关系 ,再 
以 图 书 类 别 相 关 性 链接 关系 作为 兴趣 表达 单元 ,如 表 
2 所 示 : 


表 2 图 书 类 别 相关 性 链接 关系 的 例子 
图 书 类 别 


读者 了 D 链 入 图 书 类 别 链 出 图 书 类 别 相关 性 链接 频次 
2120120324 D5 153 RS— 3 和 
2120120324 I20 I20 D0— 2 党 
2120120324 156 H31 156——H31 15 
10199359 B31 I26 BI1—126 4 
10199359 014 O014 014 一 一 014 11 
10199359 013 153 013 一 一 I3 36 
10199359 R22 021 R22 一 -一 021 1 


每 个 读者 用 户 最 大 频次 去 除 其 向 量 每 一 个 频次 值 的 
方法 进行 权 值 规范 化 处 理 。 然 后 ,对 每 两 个 读者 用 户 兴 
趣 模式 向 量 采 用 余弦 夹 角 系数 得 到 最 终 的 用 户 相 似 度 : 


sim ( ReaderVector,, ReaderVector ) = 


gi 


ReaderVector, * ReaderVector, 、 
| 
| ReaderVector, | | ReaderVector, | 


在 个 性 化 推荐 环节 上 ,首先 对 于 目标 读者 用 户 ,得 
到 最 为 相似 的 其 他 读者 用 户 序列 ,在 实际 计算 中 ,可 以 
设 定 相似 度 闵 值 来 控制 该 序列 的 大 小 。 同 时 ,我 们 设 
计 了 两 种 具有 不 同 服务 目标 的 个 性 化 图 书 推荐 服务 形 
式 : 


(1) 长 期 兴趣 推荐 。 根 据 目标 用 户 所 有 的 借阅 情 
况 ,获取 相关 借阅 图 书 的 类 别 信息 , 据 此 再 到 最 为 相似 
的 其 他 读者 用 户 序列 中 ,汇总 得 到 推荐 图 书 列表 ,并 按 
照 前 文 所 述 的 优质 图 书 识别 标准 ,倒序 输出 推荐 图 书 
列表 。 该 种 推荐 形式 主要 面向 读者 用 户 的 长 期 兴趣 特 
征 ,所 推荐 的 内 容 具 有 一 定 的 稳定 性 和 用 户 关 联 性 。 

(2) 短 期 兴趣 的 即时 推荐 。 根 据 最 近 n 次 目标 读 
者 用 户 的 借阅 情况 (n 可 以 根据 实验 数据 情况 选择 ,如 
2 次 或 者 3 次 等 ) ,获取 相关 借阅 图 书 的 类 别 信息 , 据 
此 到 最 为 相似 的 其 他 读者 用 户 序列 中 ,按照 最 近 一 次 
借阅 情况 ,汇总 得 到 推荐 图 书 列表 ,并 按照 前 文 所 述 的 
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优质 图 书 识别 标准 ,倒序 输出 即时 推荐 图 书 列表 。 该 


种 推荐 形式 主要 面向 读者 用 户 的 短期 兴趣 特征 ,所 推 
荐 的 内 容 具 有 强 时 效 性 。 


5.1 ”实验 环境 准备 

利用 南京 财经 大 学 图 书馆 汇 文 借阅 系统 2011 年 1 
月 1 日 至 2014 年 6 月 16 日 近 4 年 的 图 书 借阅 记录 作 
为 实验 数据 , 其 中 得 到 的 有 效 借阅 记录 数据 量 为 
1 076 749 条 ,涉及 的 图 书 为 138 696 种 ,每 种 图 书 都 有 
一 个 唯一 的 图 书 ID ,读者 为 42 750 位 ,包括 着 学 校 教师 
和 近 4 届 的 本 科 生 和 研究 生 。 

为 了 对 比试 验 结果 ,我 们 保留 了 全 部 读者 所 有 最 
近 一 次 借阅 的 内 容 作 为 对 比 数据 ,没有 用 于 优质 图 书 
识 册 实验 和 用 户 相似 度 计算 实验 ,此 类 借阅 记录 都 是 


没有 归还 日 期 的 记录 ,总 数 为 13 791 条 , 占 总 借阅 记 
录 1.28% 。 
5.2 专业 性 图 书 质量 识别 实验 结果 

按照 前 文 所 述 图 书 相 关 性 链接 关系 图 构建 方法 ， 
从 实验 数据 集合 中 抽取 了 2 595 690 条 记录 ,涉及 的 图 
总 数 为 126 033 , 占 全 部 图 书 总 数 的 90. 87% 。 主 要 
原因 在 于 有 部 分 读者 借阅 图 书 的 频次 很 少 而 且 间隔 很 
长 ,而 此 类 图 书 也 较 少 被 其 他 更 多 读者 借阅 ,因此 并 非 
所 有 图 书 都 能 在 图 书 相关 性 链接 关系 图 中 构成 其 他 图 
BB 的 链 入 节点 或 者 链 出 节点 。 

下 面 为 了 方便 显示 识别 效果 ,我 们 对 检索 结果 给 
出 对 比 展示 ,对 比 对 象 是 按照 现 有 图 书馆 借阅 系统 中 
以 借阅 量 为 倒序 排列 标准 的 常见 输出 结果 ,如 表 3 - 
表 5 所 示 : 


jn 


表 3 ”信息 检索 类 图 书 (《 中 图 法 》 分 类 号 为 G25) 的 查询 结果 对 比 
(a) 根 据 图 书 相关 性 链接 关系 图 迭代 算法 识别 的 专业 性 图 书 


书 各 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 ”当当 评分 
信息 检索 理论 与 技术 苏 新 宁 ,主编 6 5.373 1E -2 87.50% 
现代 信息 检索 B. RICARDO, R. BERTHIER 等 , 著 11 4.669 OF -2 99.40% 
信息 检索 陈 明 兵 ,主编 1 3.195 1E -2 NULL 
信息 检索 原理 与 技术 夏 立 新 , 金 燕 ,方志 等 ,编著 4 2.804 9E -2 99.20% 
专利 信息 检索 与 利用 阐 元 汉 , 主编 4 2.688 0E -2 100% 
(b) 根 据 借阅 量 倒 序 排列 方法 识别 的 热门 图 书 
< 书 名 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 。 当当 评分 
信息 检索 问题 集萃 与 实用 案例 草 志 梅 ， 范 亚 芳 ,， 蒲 筱 哥 ,编著 11 2.411 2E -2 ULL 
现代 信息 检索 B. RICARDO, R. BERTHIER 等 , 著 11 4.669 OE -2 99.40% 
信息 检索 导论 D. CHRISTOPHER, R. PRABHAKAR, S. HINRICH , 著 10 8.781 1E -3 100% 
信息 检索 与 分 析 利用 .2 版 谢 德 林 , 主 编 9 2.285 0E -2 NULL 
信息 检索 理论 与 技术 苏 新 宁 ,主编 6 5.373 1E -2 87. 50% 
表 4 管理 学 原理 类 图 书 (《 中 图 法 》 分 类 号 为 C93) 的 查询 结果 对 比 
(a) 根 据 图 书 相 关 性 链接 关系 图 迭代 算法 识别 的 专业 性 图 书 
书 名 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 ”当当 评分 
管理 学 原理 斯 蒂 芬 * P: 罗 宾 斯 , 戴 维 . A' 德 森 佐 , 亨利， 穆 恩 , 著 47 0.182 5 99. 10% 
管理 学 里 基 ' W. 格 里 芬 , 著 24 0.156 2 98. 60% 
管理 学 (第 3 版 ) 杨 文 士 ,等 ,编著 17 0.151 4 100% 
周三 多 《管理 学 》 笔 记 和 习题 详解 金 圣 才 ,主编 34 0.148 7 98.40% 
管理 学 (第 2 版 ) 周三 多 ,主编 31 0.144 8 100% 
(b) 根 据 借阅 量 倒序 排列 方法 识别 的 热门 图 书 
书 名 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 。 当当 评分 
管理 学 原理 斯 蒂 芬 * P: 罗 宾 斯 , 戴 维 . A. 德 森 佐 , 享 利 . 穆 恩 , 著 47 1.825 4E -1 99. 10% 
ee 圣 才学 习 网 ,主编 41 9.630 3E -2 100% 
罗 宾 斯 《管理 学 》( 第 9 版 ) 学 习 指导 史 蒂 文 ， 考 克 斯 ， 阿 雷 萨 ， 考 克 斯 , 著 38 1.077 6E -1 100% 
管理 学 精 要 加 里 : 戴 斯 勒 , 著 36 7.768 0E -2 NULL 
管理 学 习题 与 案例 姜 仁 良 ,主编 35 1.006 7E -1 91.70% 
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表 5 数据 挖掘 类 图 书 ( 标题 含有 "数据 挖掘 ”) 的 查询 结果 对 比 


(a) 根据 图 书 相关 性 链接 关系 图 迭代 算法 识别 的 专业 性 图 书 
书 名 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 ”当当 评分 
数据 挖掘 :概念 与 技术 H. JIAWEI,K. MICHELINE , 著 24 0.2198 97.70% 
数据 挖掘 导论 T. PANGNING,S. MICHAEL ,K. VIPIN , 著 25 0.181 4 80% 
数据 挖掘 :实用 机 器 学 习 技术 H. IAN,F. EIBE ,车 19 0.1453 99.50% 
Excel 2007 数据 挖掘 完全 手册 谢 邦 昌 , 朱 建 平 , 来 升 强 , 编 著 24 0.129 1 100% 
数据 仓库 与 数据 挖掘 雇 开 际 ,主编 24 0.1225 98.40% 
(pb) 根 据 借阅 量 倒序 排列 方法 识别 的 热门 图 书 
书 名 作者 借阅 量 ( 册 ) ”WeightRPR 权 值 。 当当 评分 
数据 挖掘 导论 T. PANGNING ,S. MICHAEL ,K. VIPIN , 著 25 0.181 4 80% 
数据 仓库 与 数据 挖掘 廖 开 际 ,主编 24 0.122 5 98.40% 
数据 挖掘 :概念 与 技术 JIAWEI H,MICHELINE K, 著 24 0.219 8 97.70% 
Excel 2007 数据 挖掘 完全 手册 谢 邦 昌 , 朱 建 平 , 来 升 强 ,编著 24 0.129 2 100% 
数据 挖掘 :实用 机 器 学 习 技术 H.IAN ,F.EIBE ,车 19 0.145 4 80% 


二 从 表 3 - 表 5 中 可 以 看 出 本 文 所 述 方法 的 几 个 特 


(1) 在 图 书 质量 的 识别 上 ,侧重 于 挖掘 专业 性 较 
图 书 资源 ,这 也 是 该 方法 的 一 个 主要 优势 。 事 实 
,在 传统 借阅 量 倒序 排列 方法 识别 的 优质 图 书 中 ,对 
校 图 书馆 而 言 ,一 些 考试 类 和 试题 类 图 书 往 往 取 
4 高 的 借阅 量 。 
比如 在 “信息 检索 ”类 中 ,根据 借阅 量 倒 序 排列 方 
法 讽 别 的 优质 图 书 排名 第 一 的 是 案例 分 析 类 , 而 该 本 
图 渤 并 不 出 现在 根据 图 书 相 关 性 链接 关系 图 先 代 算法 
误 出 的 专业 图 书目 录 中 ,在 “管理 学 原理 "类 中 ,与 学 
习 著 记 相关 的 有 3 本 ,排名 分 别 为 第 二 ,第 三 和 第 五 ， 
而 在 根据 图 书 相关 性 链接 关系 图 迭代 算法 识别 的 专业 
图 淖 目 录 中 只 有 1 本 ,排名 只 为 第 四 。 

”再 如 数据 挖掘 类 ,根据 图 书 相关 性 链接 关系 图 迭 
代 算 法 识别 的 专业 图 书目 录 中 前 三 本 都 是 经 典 的 数据 
挖掘 相关 图 书 , 其 中 第 一 本 韩 家 炜 (JIAWEIH ) 所 著 的 
图 书 更 是 数据 挖 气 领域 最 为 著名 的 经 典 图 书 。 然 而 这 
3 本 图 书 在 根据 借阅 量 倒 序 排列 方法 识别 的 优质 图 书 
不 仅 没 有 全 部 排 在 前 列 ,而 且 韩 家 炜 所 著 的 经 典 图 书 
其 至 掉 到 排名 第 三 。 

(2) 为 了 从 定量 的 角度 进行 更 为 有 效 的 对 比 评 
价 ,我 们 利用 中 文 当当 网 对 应 图 书 的 好 评 指 标 ,根据 
NDCG( Normalized Discounted Cumulative Gain ) 指标 中 
认为 一 般 情况 下 用 户 会 优先 点 选 排 在 前 面 的 搜索 结 
这 一 基本 思路 ,引入 折算 因子 ,并 据 此 统计 查询 结果 排 
名 前 五 位 的 最 终 评分 值 ,计算 公式 如 下 : 

discountingScore = > ,Score, * log(2)/log(1 +i) 
式 (4) 


表 3 到 表 5 三 个 对 比 结果 的 相关 计算 情况 如 表 6 
所 示 : 
表 6 ”本文 算法 和 按照 借阅 量 倒序 方法 的 评分 对 比 


discountingScore discountingScore 


WF 本 文 算法 借阅 量 倒序 方法 。 提升 度 
表 3 例 2.316 228 128 1.465 640 381 58% 
表 4 例 023 733 27 2.476 673 778 18% 
表 5 例 2.7905 835 23 2.649 493 681 5% 


我 们 随后 完成 了 随机 20 个 专业 领域 的 图 书 查 询 
测试 , 本文 算 法 的 discountingScore 平均 值 为 2.736 2 ， 
按照 借阅 量 倒序 方法 的 discountingScore 平均 值 
为 2.375 691 74, 总 体高 20.38% 。 同 时 ,从 结果 来 看 ， 
该 方法 适用 于 各 个 专业 图 书 领域 ,不 存在 明显 的 专业 
差异 ,只 受到 图 书 查 询 结 果 数 量 的 影响 , 即 有 些 专 业 图 
读者 很 少 , 无 法 有 效 地 根据 用 户 行为 来 进行 更 为 有 
效 的 识别 。 

(3) 该 方法 的 适用 面 比较 灵活 , 它 可 以 在 查询 到 
的 所 有 图 书 范围 内 去 进行 满足 特定 需求 的 分 析 , 如 表 
3 和 表 4 是 在 关键 词 查询 和 《中 图 法 ) 分 类 号 限定 双重 
约束 下 获得 的 查询 结果 ,而 表 5 和 表 6 则 只 是 关键 词 
查询 结果 ,之 所 以 采用 不 同 的 查询 策略 ,主要 原因 在 于 
图 书 标 题 和 分 类 号 在 表征 图 书 内 容 方面 都 存在 各 自 的 
不 足 , 如 有 些 图 书 标题 文字 表达 方法 存在 着 较 大 的 变 
化 ,如 查询 “管理 学 原理 ”, 可 能 的 相关 图 书 标题 却 为 
“管理 学 基本 原理 ”, 其 至 还 有 “公共 管理 学 原理 ”这 样 
的 误 判 ,而 对 于 图 书 分 类 号 而 言 更 是 如 此 ,很 多 同一 类 
型 的 图 书 都 会 因为 作者 和 标注 者 理解 的 不 同 而 放 在 不 
同 的 分 类 号 中 ,如 “数据 挖掘 ”类 常见 的 分 类 号 有 
“TP274”“TP311” 和 “0212” 等 ,这 也 是 为 什么 表 5 和 
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表 6 没有 采用 分 类 号 限定 的 原因 。 
5.3 读者 相似 度 实验 结果 

实验 中 由 于 读者 借阅 记录 内 容 的 限制 ,并 非 所 有 
读者 都 与 其 他 读者 具有 相同 的 借阅 图 书 类 别 ,因此 在 
借助 于 图 书 类 别 相 关 性 链接 得 到 的 用 户 相 似 度 结 
中 ,实际 得 到 的 有 效 ( 相似 度 大 于 0% ) 的 读者 总 数 为 
23 937 位 , 占 全 部 读者 用 户 比 重 56% 。 

实验 结果 说 明 用 户 相似 度数 值 具 有 较 大 的 变化 空 
间 ,从 相似 度 为 100% 到 0.000 006% ,具体 数值 分 布 情 


况 如 表 7 所 示 : 
表 7 用 户 相似 度数 值 区 间 及 其 用 户 对 数量 
相似 度 区 间 匹配 用 户 对 数量 (单位 :位 ) 
100% 11 
— [90% ,100%) 2 279 
~ [80% ,90% ) 3 147 


[70% ,80% ) 1 983 
[60% ,70% ) 2 259 
[50% ,60% ) 4 305 
[40% ,50% ) 5 454 
[30% ,40% ) 12 266 
[20% ,30% ) 20 875 


[10% ,20% ) 44 137 


(0% ,10% ) 326 268 


匹配 用 户 对 总 数 为 422 984 位 ,有 近 77.13% 的 用 


于 QQ% ) 读 者 总 数 61.3% 。 
5: 龙 个 性 化 推荐 实验 结果 


期 兴趣 的 即时 推荐 方法 。 

实验 所 选择 的 测试 读者 用 户 对 象 主要 分 为 两 大 
类 :一 类 是 满足 借阅 记录 量 大 于 200 条 以 上 的 读者 用 
户 , 和 每 位 受 测 读者 用 户 进行 匹配 的 相似 读者 用 户 至 
少 满足 借阅 记录 量 大 于 10 条 以 上 。 总 共 得 到 139 位 
受 测 读者 用 户 .25 220 位 进行 匹配 的 相似 读者 ,产生 的 
读者 用 户 匹 配 数量 为 3 505 580 对 ; 另 一 类 是 满足 借阅 
量 大 于 100 条 并 且 小 于 200 条 的 读者 用 户 , 和 每 位 受 
测 读者 用 户 进 行 匹 配 的 相似 读者 用 户 至 少 满足 借阅 量 
大 于 10 条 以 上 。 总 共 得 到 1 213 位 受 测 读者 用 户 、 
25 220 位 进行 匹配 的 相似 读者 ,产生 的 读者 用 户 匹 配 
数量 为 3 505 580 对 。 

两 个 实验 重点 测试 的 是 所 推荐 的 图 书 类 别 是 否 为 
用 户 感 兴趣 的 图 书 类 别 。 因 为 保留 了 全 部 读者 所 有 最 
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近 一 次 借阅 的 内 容 作 为 对 比 数据 ,所 以 我 们 将 所 有 用 
户 借阅 行为 中 借阅 的 图 书 类 别 为 图 书 类 别 相关 性 链接 
关系 的 链 入 ,对 于 长 期 兴趣 推荐 方法 而 言 ,记录 范围 为 
每 个 读者 用 户 的 全 部 借阅 记录 ,对 于 短期 兴趣 推荐 方 
法 而 言 , 则 只 利用 每 个 用 户 最 多 最 近 3 次 的 全 部 借阅 
记录 。 然 后 ,根据 这 些 链 入 在 推荐 方法 中 观察 推荐 图 
书 类 别 结 果 , 并 根据 实际 用 户 最 近 一 次 借阅 的 图 书 类 
别 情况 ,统计 推荐 方法 给 出 的 图 书 类 别 在 实际 后 续 借 
阅 行 为 中 出 现 的 比重 , 即 推 荐 命中 度 , 以 此 来 测度 个 性 
化 推荐 方法 本 身 的 有 效 性 ,具体 方法 如 式 (5 ) 所 示 : 
推 荐 命 中 度 = 
后 续 借 阅 出 现 推荐 图 书 类 别 的 用 户 总 数 式 (5) 
所 有 用 户 总 数 
对 于 第 一 类 借阅 量 大 于 200 条 以 上 的 读者 用 户 ， 
长 期 兴趣 推荐 方法 具体 效果 如 表 8 所 示 : 
表 8 第 一 类 长 期 兴趣 推荐 方法 中 各 个 用 户 
相似 度 阐 值 限定 下 的 平均 推荐 效果 


户 相似 度 。 。 受 测 用 户 总 数 。 ”匹配 用 户 总 数 。 ”平均 推荐 
阅 值 范围 (单位 :位 ) (单位 :位 ) 命中 度 
[90% ,100% ] 127 2917 82.91% 
80% ,90% ) 53 4 558 82.71% 
70% ,80% ) 73 5 670 72.99% 
60% ,70% ) 85 6 907 66.15% 
50% ,60% ) 107 9 429 65.33% 
[40% ,50% ) 118 12 075 63.45% 
30% ,40% ) 129 15 045 60.21% 
[20% ,30% ) 131 18 214 56.78% 
10% ,20% ) 134 21 568 54.63% 
[0% ,10% ) 139 24 407 53.31% 


短期 兴趣 的 即时 推荐 方法 具体 效果 如 表 9 所 示 : 
表 9 第 一 类 短期 兴趣 即时 推荐 方法 中 各 个 用 户 
相似 度 阅 值 限定 下 的 平均 推荐 效果 


户 相似 度 。 。 受 测 用 户 总 数 。 ”匹配 用 户 总 数 。 ”平均 推荐 
闵 值 范 围 (单位 :位 ) (单位 :位 ) 命中 度 
[90% ,100% ] 103 2 673 82.47% 
80% ,90% ) 50 1 907 86. 54% 
[70% ,80% ) 62 1 654 70.07% 
60% ,70% ) 62 1 892 64.37% 
[50% ,60% ) 76 2 384 59. 83% 
40% ,50% ) 83 3 910 68.72% 
30% ,40% ) 91 3 728 66.27% 
20% ,30% ) 92 4 829 63.05% 
10% ,20% ) 97 5 698 54. 86% 
[0% ,10% ) 92 8 562 47.43% 


对 于 第 二 类 借阅 量 大 于 100 条 并 且 小 于 200 条 的 
读者 用 户 ,长 期 兴趣 推荐 方法 具体 效果 如 表 10 所 示 : 
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等 . 借阅 场景 下 图 书 专业 性 质量 测度 方法 和 图 书 个 ， 旺 化 推荐 服务 方法 9 合作 期 各 


表 10 第 二 类 长 期 兴趣 推荐 方法 中 各 个 用 户 


相似 度 阔 值 限 定 下 的 平均 推荐 


效果 


户 的 8.73 倍 ) ,因此 发 现 相 似 用 户 的 概率 更 大 ,从 而 获 
取 的 有 效 推荐 结果 更 多 。 但 是 在 用 户 相似 度 位 于 
75% 以 上 近似 区 间 内 ,不 论 长 期 方法 还 是 短期 方法 ,第 


户 相似 度 受 测 用 户 总 数 匹配 用 户 总 数 平均 推荐 
阀 值 范围 (单位 :位 ) (单位 :位 ) 命中 度 小 
[90% ,100% ] 1 038 4 337 84.99 % ne 
80% ,90% ) 385 5 509 79.24% 
70% ,80% ) 545 7 718 74.13% 
60% ,70% ) 701 9 991 71.74% 
50% ,60% ) 834 12 646 68.48% 
40% ,50% ) 972 15 521 68.58% 
30% ,40% ) 1 076 18 592 66. 80% 
20% ,30% ) 1 134 21 510 63.45% 方法 。 
10% ,20% ) 1 177 23 609 59.20% 
[0% ,10% ) 1 209 24 491 55.71% 


短期 兴趣 的 即时 推荐 方法 具体 效果 如 表 11 所 示 : 


有 
> 表 11 第 二 类 短期 兴趣 即时 推荐 方法 中 各 个 


用 户 相 似 度 阅 值 限定 下 的 平均 推荐 效果 
加 ”相似 度 。。 受 测 用 户 总 数 。 ”匹配 用 户 总 数 。 平均 推荐 
CC 凡人 值 范 四 (单位 :位 ) (单位 :位 ) 命中 度 
Ty ,100% ] 880 4 920 87. 56% 
[1 
CH89% ,90% ) 384 4 168 82.94% 
TR ,30%) 472 5 445 81. 90% 
% ,70% ) 536 5 631 78.11% 
% ,60% ) 624 7 222 75. 52% 
(CRY ,50% ) 680 7 971 74.08% 
> ,40% ) 700 8 672 71. 12% 
a E20% ,30% ) 748 9 418 65.01% 
% ,20% ) 773 9 991 58.53% 
6 ,10% ) 718 9 659 49.58% 
HB Ess 
- 己 全 部 数据 的 相关 对 比如 图 2 所 示 : 
CM oo0% 
85.0096 
80.0096 
75.00% 
70.00% -vv 
65.00% SN 一 一 长 期 1 
60.009% 一 一 短期 1 
55.00% 长 期 2 
50.009% i 


45.00% 
40.00% 


2 
短期 兴趣 推荐 的 效果 比较 


从 图 2 可 以 看 出 以 下 3 个 特点 : 


(1) 不 论 长 期 兴趣 推荐 方法 还 是 短期 兴趣 推荐 方 


两 类 读者 用 户 的 长 期 兴趣 推荐 和 


第 二 类 用 户 的 平均 推荐 命中 度 要 高 


于 第 一 类 用 户 ， 


a 类 用 


命中 度 反而 要 高 于 第 二 类 用 户 。 这 
在 一 定 程度 上 说 明 ,对 于 借阅 量 较 高 的 读者 用 户 而 言 ， 
利用 较 高 的 用 户 相似 度 进行 推荐 具有 优势 。 
(2) 从 总 体 看 ,在 第 一 类 用 户 中 ,最 高 相似 度 区 间 
(75% 以 上 ) 和 较 低 相 似 度 区 间 (15% 到 50% ) 的 短期 
兴趣 推荐 方法 的 平均 推荐 命中 度 要 高 于 长 期 兴趣 推荐 
在 第 二 类 用 户 中 , 绝 大 多 数 相似 度 区 间 (20% 以 
上 ) 的 短期 兴趣 推荐 方法 的 平均 推荐 命中 度 高 于 长 期 
兴趣 推荐 方法 ,同时 这 也 是 所 有 平均 推荐 命中 度 最 高 
的 区 间 。 从 这 里 ,可 以 看 出 短期 兴趣 推荐 方法 具有 较 
为 明显 的 优势 ,在 较 大 的 相似 度 区 间 范 围 内 都 具有 较 
为 明显 的 平均 推荐 命中 度 ,这 也 充分 说 明 读者 用 户 的 
阅读 兴趣 具有 较为 明显 的 时 效 性 和 短期 特征 ,尤其 是 


较 近 时 期 内 的 兴趣 变化 会 对 当前 用 户 兴 趣 产 生 较 大 的 
影响 。 


(3) 不 论 长 期 兴趣 推荐 方法 还 是 短期 兴趣 推荐 方 
法 ,都 呈现 出 推荐 命中 度 与 用 户 相 似 度 国 值 范围 的 依 
赖 关 系 , 即 放松 用 户 相 似 度 匹配 范围 ,可 以 增加 推荐 用 
户 数 量 , 但 是 会 给 推荐 命中 度 带 来 不 利 影响 。 

为 了 进行 有 效 性 对 比 ,我 们 利用 标准 协同 过 滤 方 
法 对 上 述 两 类 用 户 的 短期 兴趣 推荐 方法 进行 了 测试 ， 
具体 结果 如 表 12 所 示 : 

表 12 采用 标准 协调 过 滤 方 法 实现 的 两 类 用 户 

短期 兴趣 即时 推荐 方法 结果 


用 户 相似 度 第 一 类 用 户 第 二 类 用 户 
赣 值 范围 平均 推荐 命中 度 平均 推荐 命中 度 
[90% ,100% ] 2.03% 1.41% 
[80% ,90% ) 2.23% 1.97% 
[70% ,80% ) 2.3% 1.92% 
[60% ,70% ) 2.17% 1.84% 
[50% ,60% ) 2.4% 1.86% 
[40% ,50% ) 2.28% 2.24% 
[30% ,40% ) 2.31% 1.99% 
[20% ,30% ) 2.4% 2.30% 
[10% ,20% ) 1. 89% 2.27% 
[0% ,10% ) 1.76% 1.42% 


从 表 12 可 以 看 出 ,两 种 方法 总 体 推荐 命中 情况 都 
a 类 用 户 由 于 借阅 量 较 小 ,推荐 命中 效 
果 更 差 一 些 。 这 说 明 传 统 标 准 推荐 方法 由 于 没有 考虑 
借阅 历史 所 反映 的 用 户 兴趣 演变 趋势 ,同时 也 限于 数 
据 量 有 限 ,单纯 使 用 相似 度 拟 合 的 方法 效果 并 不 理想 。 
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需要 说 明 的 是 ,目前 的 实验 只 是 针对 现 有 读者 借 
阅 记录 ,尚未 进行 优质 图 书 资源 推荐 结合 的 考虑 。 为 
此 ,我 们 完成 了 一 个 用 户 在 线 满意 度 测试 系统 ,邀请 用 
户 对 自己 感 兴趣 的 图 书 进行 检索 ,同时 在 南京 财经 大 


学 图 书馆 借阅 系统 中 开始 进行 相关 实际 推荐 效果 的 用 
户 测试 ,这 部 分 工作 需要 一 定 的 时 间 , 待 全 部 工作 完成 
后 ,我 们 会 对 相关 调研 结果 做 出 更 为 详细 的 分 析 和 说 


明 。 
6 总 结 


作为 对 于 图 书 借阅 领域 个 性 化 推荐 服务 研究 的 一 
种 探索 ,本 文 力图 通过 利用 现 有 读者 借阅 记录 得 到 的 
高 质量 专业 性 图 书 资源 识别 和 读者 用 户 相似 度 比 较 方 
浇 3 提 出 改善 现 有 图 书馆 个 性 化 服务 的 策略 ,并 进行 实 
如 和 和 步 实现 了 预期 的 设计 目标 。 不 过 ,该 方法 仍然 存 
在 攻 需 要 进一步 研究 和 改进 的 地 方 , 主要 问题 在 于 目 
前 利 用 读者 借阅 记录 实现 的 个 性 化 推荐 必须 建立 在 较 
规模 的 读者 用 户 借 阅 记录 基础 上 ,而 且 要 求 读者 具 
A 的 长 期 借阅 习惯 ,反之 对 于 那些 偶尔 借阅 

读者 用 户 而 言 ,很 难 从 借阅 记录 中 得 到 更 多 的 兴 
a 说 明 对 这 些 用 户 而 言 ,如 何 激发 其 关 
洋 图 书 借阅 ,对 于 改善 图 书馆 图 书 借阅 服务 而 言 尤 为 
楼 。 这 构成 了 我 们 下 一 步 的 研究 目标 。 
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The Method of Measuring the Professional Quality of Books and Personalized Book 
Recommendation Service in Circulating Scene 
Li Shuqing Zhuang Guangguang Qin Jiahang” Xu Xia” 
! School of Information Engineering, Nanjing University of Finance and Economics, Nanjing 210046 
? Library, Nanjing University of Finance and Economics, Nanjing 210046 
”School of Management, Nanjing University of Posts and Telecommunications, Nanjing 210046 
Abstract: [Purpose/significance | With the analysis of the existing library records and mining of the reading rele- 
vance of books, this paper discusses the effective methods to identify high -quality professional books and implement a per- 
sonalized recommendation service. [Method/process | This paper introduces the iterative algorithm of recognizing high - 
quality professional books from links of books relevance based on reading relevance. Then the construction of reader per- 
sonalized profile is discussed based on the definition of links of book categories. The design and implementation of long- 
temm,_and short-term personalized recommendation methods are also proposed. [Result/conclusion |In the aspect of book 
qlity identification, it is easier to identify the professional books resources with higher quality. This application is more 
fible and also can identify the high -quality professional books within the collection of specific books. lt is found that 
whiether long -term or short -term interest interest recommendation method, the average hit degree of users with higher lend- 
irke 过 higher than users with lower lending. In the group of users with higher lending, the average hit degree of short -term 
ifast recommendation method in the highest similarity range (more than 75% ) and lower similarity range (15% to 
S50 ) is higher than the long-term interest recommendation method. 
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“名 家 视点 ”第 8 辑 从 书 书 讯 


、” ”由 《图 书 情报 工作 》 杂 志 社 精心 策划 和 主编 的 “名 家 视点 ”系列 从 书 第 8 辑 已 正式 出 版 。 该 系列 图 书 资料 翔实 , 汇 
集 了 多 位 专家 的 研究 成 果 和 智慧 ,观点 新 颖 而 富有 见地 ,反映 众多 图 书馆 学 情报 学 热点 和 前 沿 研究 的 现状 及 发 展 趋 
势 ,对 理论 研究 和 实践 工作 探索 均 具 有 十 分 重要 的 参考 价值 和 指导 意义 ,可 作为 图 书馆 学 情报 学 及 相关 学 科 的 教学 参 
考 书 和 图 书 情 报 领域 研究 学 者 和 从 业 人 员 的 专业 参考 书 。 该 专辑 的 4 个 分 册 信息 如 下 ,广大 读者 可 直接 向 本 杂志 社 
订购 ,享受 9 折 优 惠 并 免 邮 资 。 

《智慧 城 市 与 智慧 图 书馆 》( 定价:52. 00 ) 

。《 面 向 MOOC 的 图 书馆 嵌入 式 服务 创新 》( 定 价 :52. 00 ) 

。《 数 据 管理 的 研究 与 实践 》( 定价:52. 00 ) 

e《 阅 读 推 广 的 进展 与 创新 》( 定价 :52. 00 ) 

欢迎 踊跃 订购 ! 

地 址 :北京 中 关 村 北 四 环 西 路 33 号 5D 室 

节 “ 编 :100190 

必 款 人 区 图 书 情报 工作 》 杂 志 社 

外话:(010 )82623933 

关系 人 : 谢 梦 竹 ， 王 传 清 
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